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+ Introdução + Introdução 


= Avanços recentes nas tecnologias de = Estima-se que a quantidade de dados em 
aquisição, transmissão e Bases de Dados mundiais dobra a cada 20 
armazenamento de dados meses 
= Transações bancárias 
= Utilização de cartões de crédito 
= Dados governamentais 
Medições ambientais 
Dados clínicos 


Bases de dados cada VeZz Malores Informações disponíveis na web 


Dados de biologia molecular 
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4 Introdução + Tamanho Conjunto de Dados 


100,000,000 = Tamanhos de conjuntos de dados 


= Pequeno 
= Conjunto de dados pode ser gerenciado pela ferramenta de 
1,000,000 KDD sozinha, geralmente em um único computador 
100,000 « = Médio 
À = Necessária a integração do ambiente de KDD com Sistemas 
Gerenciadores de BDs (SGBDs), que gerenciam os dados 


Número de páginas na web Grande 
100 4 pag = Quando o volume de dados é grande demais para ser 


gerenciado pelas ferramentas de um SGBD 
= Necessário sistemas sofisticados capazes de lidar com 
dados armazenados em arquivos 


10,000,000 + 
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+ Tamanho Conjunto de Dados + Armazenamento de Dados 


= Computadores atuais já vêm com 1 ou 
2 terabyte de memória 

= Cabe em 1 petabyte 
= 20 milhões de arquivos de 4 gavetas cheios 


= 500 bilhões de páginas de texto 


= Metade do conteúdo de todas as bibliotecas 
acadêmicas americanas combinadas 


= 7 bilhões de fotos no facebook 
= 200 milhões de músicas 
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+ Grandes Bancos de Dados + Grandes Bancos de Dados 


= World Data Centre for Climate (WDCC) = Youtube 
= Max Planck Institute for Meteorology and = Pelo menos 45 TBs de vídeos 
German Climate Computing Centre = 60% de todos os vídeos assistidos online 
= 220 TBs de dados disponíveis na web = 100 milhões de vídeos assistidos por dia 
sobre pesquisas e tendências climáticas = 65.000 novos vídeos adicionados por dia 


« 110 TBs (24.500 DVDs) com dados de « Crescimento esperado de 1.86 TB por mês 
simulações climáticas 


= 6 PBs de informação adicional em fitas 
magnéticas 
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+ Grandes Bancos de Dados + Grandes Bases Biologia 


= Amazon = GenBank 


= Dois de seus BDs têm juntos mais de 42 = Banco de dados de sequências genéticas 
TBs de dados do Instituto Nacional de Saúde (NIH) 


« Milhões de itens vendidos por ela e por seus = Todas as sequências de DNA publicamente 
associados por ano disponíveis 


n EquNce a 37 trilhões He posts para fóruns « International Nucleotide Sequence 
= 59 milhões de consumidores cadastrados Database Collaboration 


= DNA DataBank of Japan (DDBJ) 
= European Molecular Biology Laboratory (EMBL) 
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+ GenBank 


Crescimento do GenBank 
1982-2009 





Sequências (milhões) 


| Pares de bases = 
seguências =— 
Fonte: Genbank | 
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+ Grandes Bases Biologia 


es) 


Pares de bases de DNA (bilhô 


= Worldwide Protein Data Bank (wwPDB) 


tem mais de 90.000 estruturas 
= RCSB PDB (EUA) 
= PDBe (Europa) 


= PDBj (Japão) 
= BMRB (EUA) 


= No passado, crescimento exponencial 
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Exemplo — Carros 


vhigh,vhigh,2,2,small,low,unacc 
vhigh,high,3,more, big,low,unacc 
vhigh,low,3,4,big,low,unacc 
med,low,4,2,small,high,unacc 
med,low,3,4,small,med,acc 
high,high,2,4,big,med,acc 

low, low,5more,4,small,med,acc 
low,med,4,4,small,med,acc 
low,med,4,4,big,med,good 
low,low,4,more,big,med,good 
med,low,2,4,small,high,good 
low,med,4,4,big,high,vgood 
med,med,2,4,big,high,vgood 
low,low, 5more,more,big,high,vgood 
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+ GenBank 


Crescimento do GenBank 
1982-2009 





es) 


Junho de 2012 
>141 bilhões de pares de bases 
>154 milhões de sequences 


Sequências (milhões) 


| Pares de bases = 
sequências =D 
Fonte: Genbank | 





Pares de bases de DNA (bilhô 
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+ Introdução 


= Bases de Dados muito grandes podem 
conter (esconder) dados preciosos 


= Existe um interesse crescente em explorar 
esses dados armazenados 
= Descobrir conhecimento novo e útil 
= Apoio a decisão 
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+ Exemplo - Carros 


= Preço 

= Compra: v-high, high, med, low 

= Manutenção: v-high, high, med, low 
= Características técnicas 


= Conforto 

= É portas: 2, 3, 4, 5-more 

= % pessoas: 2, 4, more 

= Espaço porta malas: small, med, big 
= Segurança: low, med, high 


= Aval. do carro: unacc, acc, good, vgood 
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Exemplo - Carros 


vhigh,vhigh,2,2,small,low,unacc = Preço 

vhigh,high,3,more, big, low,unacc = Compra: v-high, high, med, low 
vhigh,low,3,4,big,low,unacc " HanaRançao: v-high, high, med, low 
med, low,4,2,small,high,unacc = Caracteristicas técnicas 

med, low,3,4,small,med,acc « Conforto 
high,high,2,4,big,med,acc BR ida o dd 
low, low, 5more,4,small,med,acc E 
low,med,4,4,small,med,acc E id malas: small 
low,med,4,4,big,med,good n dranai low, med, high 

low, low,4,more,big,med,good = Aval. do carro: unacc, acc, good, vgood 
med,low,2,4,small,high,good 

low,med,4,4,big,high,vgood 

med,med,2,4,big,high,vgood 

low,low, 5more,more,big,high,vgood 
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Introdução 


= Técnicas tradicionais de análise de dados 
permitem apenas consultas simples 
= Quantos itens de um produto em particular foram 
vendidos em um dado dia? 
= Não conseguem responder consultas do tipo: 
= Dadas características de um carro, ele é bom? 
= Que tecidos podem estar com tumor? 
= Qual a estrutura terciária de uma nova proteina 


= Técnicas mais sofisticadas, capazes de extrair 
conhecimento de grandes BD são necessárias 
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KDD 


= Processo de encontrar em dados padrões 
= Úteis 
= Válidos 
= Novos 
= Potencialmente compreensíveis 
= Processo interativo e iterativo 


= Várias etapas 
= Uma delas é Mineração de Dados 


André Ponce de Leon F de Carvalho 


Edo SA AM Dados | 
( Prê-processamento = 1 transformados 
I 
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Exemplo - Promotores 


+,S10, tactagcaatacgcttgegttegatggttaagtatgtataatgegegggcttgtegt 
+,AMPC, tgctatcctgacagttgtcacgetgattagtgtegttacaatctaacgcategecaa 
+,AROH, gtactagagaactagtgcattagcttattittttgttatcatgctaaccacecggcg 
+,DEOP2, aattgtgatgtgtatcgaagtgtattgcggagtagatgttagaatactaacaaactc 
+,LEUÍ TRNA, tegataattaactattgacgaaaagetgaaaaccactagaatgegcctcegtggtag 
aggggcaaggaggatggaaagagattgecgtataaagaaactagagtecgtttagat 
aggcatgtaaacgtettegtagegcatcagtgctttcttactgtgagtacgcaccag 
ccgagtagacccttagagagcatgtcagectcgacaacttgcataaatgctttettg 
cgctaggactttcttgttgattttecatgegatatittgegcaatgttaategettt 
tatgaccgaacgagtcaatcagaccgctttgactetggtattactgtgaacattatt 
agagggtgtactccaagaagaggaagatgaggctagacgtctctgcatggagtatga 
gagagcatgtcagectcgacaacttgcataaatgctttcttgtagacgtgecetacg 
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KDD 


= Descoberta de conhecimento em BD 
= Knowledge Discovery in Databases 


= Área de pesquisa em expansão 


= Teorias e ferramentas computacionais 
capazes de extrair informação útil de 
grandes BD 
= Informação útil = conhecimento 
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o “Avaliação? 
/ Mineração», =7 


É 


Conhecimento 


Ti I 








Padrões 
































Dados | 
Pré-processados 
I 


Foda Fayyad et al 1997 
originais André Ponce de Leon F de Carvalho 
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+ Seleção + Exemplo 
BD com registros 


= Entender o domínio de aplicação « BD de um hospital dEgadéies 
= Determinar o que já é conhecido sobre o « Composto por conjunto dinda 
problema de registros de X código interno, nome, 
= Identificar claramente os objetivos do pacientes rofi | 
usuário = Cada registro é 
= Exemplo composto de atributos 


- Diagnosticar um paciente de acordo com um É Informações pessoais 
conjunto de sintomas = Sintomas 
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+ Conjunto de Dados + Seleção 


Atributos de entrada (preditivos) E Criação de um conjunto de dados 


! | = Seleciona “manualmente” um subconjunto 
Nome Temp. Idade Peso Altura dos dados disponíveis 


voso 7 94 190 | Saudável | « Subconjunto de registros (instâncias ou 
Maria 38 60 172 | Doente ! exemplos) 

Exemplos | |José 39 70 185 | Doente |: | | 
(objetos, Sílvia 38 65 160 | Saudável || = Subconjunto de atributos considerados 
padrões) Pedro 37 90 168 | Doente | relevantes para o problema 


- Elimina atributos que sejam claramente irrelevantes 
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+ Exemplo + Pré-processamento e Limpeza 


Conjunto com dados 
1000000 


código interno, nome, EAnICOR aos pestentos facilitar sua posterior utilização 
issã 986 


EE = Engloba várias operações 
issã ltura, = Seleção “automática” de atributos 
= Conversão de valores 
= Lidar com atributos ausentes 
= Eliminar dados duplicados 
= Detectar ruído 


= Melhorar a qualidade dos dados e 
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+ Transformação + Mineração de Dados 


= Inclui operações que modificam valores = Principal passo no processo de KDD 
para um dado atributo = DM e KDD são frequentemente utilizados 
= Cada operação deve ser aplicada a todos como sinônimos 
os valores do atributo = Fronteiras da etapa de MD no processo 
« Todos os objetos de KDD são de difícil identificação 


= Ex.: normalização, valor absoluto, ... = Pré-processamento e transformação de 
dados são frequentemente vistos como 
uma parte de MD 
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+ Mineração de Dados + Mineração de Dados 
= Outros termos utilizados para MD e 
KDD md a Dna 


= Extração de conhecimento 

= Descoberta de informação 

= Extração de padrões 

= Análise exploratória de dados 


mm 
de Dados 
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+ Interpretação / Avaliação + Mineração de Dados 


= Interpretação dos padrões minerados na = MD X KDD 


etapa de MD = MD: ferramentas básicas utilizadas para 


= Possível retorno a qualquer uma das etapas extrair padrões de dados 
anteriores para iteração adicional 


« Valida padrões encontrados = KDD: processo que engloba o uso dessas 
= Importante consulta a um especialista ferramentas, além de: 
Doo ud = Pré-processamento, seleção e transformação 
= Inclui analise estatistica dis dedos 
= Interpretação dos padrões 
- Geração de conhecimento 


= Ferramentas de visualização têm um papel de 
suporte importante 
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+ Aplicações + Aplicações Reais 


= Número crescente de aplicações = Cadeias de PUB britânicas utilizam MD 
= Internet: algoritmos de busca, marketing na web para definir mudanças diárias nos 

= Ciência e Medicina: diagnóstico de pacientes, análise 

de dados do genoma preços de algumas bebidas 


= Indústrias: previsão de falhas, diagnóstico de = Acessa impacto das ofertas de happy hour 


produtos . nas vendas 
= Marketing: segmentação de mercado 


= Telecomunicações: processamento de alarmes, 
roteamento de linhas de comunicação 


= Finanças: análise de risco, detecção de fraudes, 
gerenciamento de carteiras de investimento 
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+ Aplicações Reais + Aplicações Reais 


= Fast Search & Transfer ASA = Seimans Medical 
= Software de MD que pode fazer 200 = Ferramenta de MD para o Tratamento 
consultas por segundo de Ataques cardíacos 


« Utilizado pela Reuters para procurar = Combina informações médicas de diversas 
violações de propriedade intelectual na Web fontes 


= Busca por textos semelhantes aos publicados « Inclusive texto 


pela Reuters B komidt E Eisé 
= Envia a Advogados textos suspeitos Aga a a ns sm SS nas 
de 6 milhões de pacientes 
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+ Aplicações Reais + Aplicações Reais 


= Seimans Medical = The Mitre Coorporation 
= Descobriu centenas de casos onde os = Ferramenta de MD para detecção de fraudes no 


melhores procedimentos médicos não no sa : 
viam sido segui Eos = Individuos com rendimentos elevados são uma 


| das principais fontes de estimativas não realizadas 
= Mas ainda havia tempo para intervir - Renda anual > US$ 250.000,00 
= Identificou pacientes elegiveis para estudos = Prejuízo (impostos que deveriam ser coletados — 
médicos impostos coletados) 


qi = Sistema de MD usa Aprendizado de Máquina e 
E qu o 2005 ICDM Data Mining Practice Análise Estatística para descobrir sonegações 
rize 
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Aplicações Reais 


= The Mitre Coorporation 
= Análise baseada em kernels 
= Utiliza formas conhecidas de burlar a receita 


= Regras de associação 


= Procura por grupos de contribuintes que podem 
estar em um esquema de sonegação 


» Promovido por um mesmo consultor ou analista 
financeiro 
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Pesquisas KDnuggets 





= Aplicações de MD 


= Em que indústrias / áreas 
você está atualmente 
aplicando MD em 2010 


= Fonte: 
= http://www .kdnuggets.com/polls/ 
2010/analytics-data-mining- 
industries-applications.html 
= 213 votos 
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Enterprise 


Produtos de MD 
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Aplicações Reais 


= The Mitre Coorporation 


= Modelo trabalha com estimativa de risco, 
combinando: 
= Probabilidade de abusos 
= Potencial de perdas de receita 


= Resultados 
= Reduz tempo de análise 
- 2 semanas para poucas horas (dados de 2001) 
= Encontrou casos não descobertos por auditores 


= Segundo lugar no 2005 ICDM Data Mining Practice 
Prize 
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Investimentos em MD Preditivo 


= 15% - coleta de dados 
60% - limpeza de dados 
15% - construção e análise de modelos 
5% - aplicação 
5% - melhorias continuas 
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Mais Produtos 
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+ Mitos (Padhraic Smith) + Mitos (Padhraic Smith) 


= “Análise de dados pode ser completamente = “Com uma quantidade massiva de 
automatizada” 


ms o dados, não é necessário estatística” 
= Julgamento humano e critico na maioria das 


aplicações = Grande volume leva a heterogeneidade 
= Entretanto, semi-automação é muito útil = Precisa ainda mais de estatística 


= “Regras de associação são sempre úteis” 


= Regras de associação são essencialmente listas de 
correlações 


= Nenhuma aplicação bem sucedida documentada 
= Comparar com árvores de decisão (várias aplicações) 
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+ Considerações Finais + Perguntas 


= Expansão do volume de dados 
armazenados 


= Necessidade de extrair conhecimento 
dos dados 


= KDD é cada vez mais usado 


= Cuidado com promessas exageradas 
= Sistemas Especialistas 
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